蛋白质数据库及其结构预测攻略

Original 小洁不会分身生信技能树 2022-06-06

一、蛋白质结构层次

一般情况下，蛋白质的结构分为4 个层次：

初级结构——氨基酸序列；
二级结构——а螺旋(alpha-helix)，β折叠(β-sheets)，β转角，无规则卷曲（random coil）
三级结构——三维结构，由模体（motif）和结构域（domain）组成；
四级结构——亚基之间的互作。

二、蛋白质数据库：

1. 蛋白质一级数据库

1.1序列数据库：UniProt

包含三大蛋白质序列数据库，Swiss-Prot，TrEMBL 和PIR，分为三个层次：
第一层叫UniParc，收录了所有UniProt 数据库子库中的蛋白质序列，量大，粗糙。

第二层是UniRef，他归纳了UniProt 几个主要数据库并且是将重复序列去除后的数据库。

第三层是UniProtKB，他有详细注释并与其他数据库有链接，分为Swiss-Prot（最有用的）和TrEMBL。

1.2蛋白质结构数据库PDB

PDB存储生物大分子3D 结构。这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物。只有通过实验方法获得的3D 结构才会被收入其中。PDB文件是一堆数字字母，那是每个原子的坐标，一般用用可视化软件VMD打开，免费的，这里不作具体说明。

2. 蛋白质二级数据库

2.1结构域家族Pfam数据库

Pfam 主页上的搜索工具可以查找某条序列上有哪些结构域。

2.2结构分类数据库CATH

CATH是四种结构分类层次的首字母。
根据PDB编号搜索，可以获得各层次具体的结构分类信息以及各种结构相关分析信息、聚类分析。

2.3结构分类数据库SCOP2

在搜集、整理、分析PDB数据中已知的蛋白质三维结构的基础上，详细描述了一直结构的蛋白质在结构、进化事件与功能类型三个方面的关系，主要依赖人工验证。

三、蛋白质结构研究

1.二级结构

1.1已知

PDB-输入检索号-sequence- view sequence& DSSP image

1.2未知

预测网址如下：输入氨基酸序列，等待大概半小时。
PSIPRED http://bioinf.cs.ucl.ac.uk/psipred
Jpred3 http://www.compbio.dundee.ac.uk/www-jpred/
PREDICTPROTEIN http://www.predictprotein.org/
SSpro http://scratch.proteomics.ics.uci.edu/
PSSpred http://zhanglab.ccmb.med.umich.edu/PSSpred/
PREDATOR http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::predator
GOR V http://gor.bb.iastate.edu/

2.三级结构

实验方法，又贵又难做，还是预测比较好啊。

2.1同源建模

2.1.1自动档：swiss-model3-5min

原理：相似的氨基酸序列对应着相似的蛋白质结构
要求：找到与目标序列一致度≥30%已知结构作为模板
操作：输入氨基酸序列-start modeling
评估：GMQE ：可信度范围为 0-1，值越大表明质量越好
QMEAN4：区间-4-0，越接近0，评估待测蛋白与模板蛋白的匹配度越好

2.1.2进阶档：

Moddler中的 easymoddeler 4.0，教程参考https://wenku.baidu.com/view/2d00e4220b1c59eef8c7b46b.html

2.2 折叠识别i-TASSER

原理：不相似的氨基酸序列也可以对应着相似的蛋白质结构。
补充说明：已知的蛋白质结构有十几万个，但其所具有的不同的结构拓扑只有1393个，也就是说，所有结构都落在这1393个拓扑内！因此，选择匹配能量最低的拓扑。
要求：没要求，比较任性。一般是不能同源建模（一致度＜30%）的蛋白选用这个方法。
操作：用学术邮箱注册，提交序列，等待35h。
结果页面：
（1）预测的二级结构
（2）预测的残基可溶性（高度暴露的表面残基：9，深埋的内部残基0）
（3）建模使用的模版及多序列比对。不是序列相似性比对，而是用穿线法穿出来
（4）预测蛋白质功能，以及有可能与之结合的配体和该配体的结合位点
评估：模型质量评估模型质量评估系数C-score：[-5,2]，分值越高，可信度越高。
TM-score：两两结构相似度系数，>0.5说明模型具有正确的结构拓扑，可信，<0.17说明模型属于随即模型，不可信。
RMSD：两两结构间的距离偏差。

2.3 从头计算

原理：1973年《science》Anfinsen：蛋白质的三维结构决定于自身的氨基酸序列，并且处于最低自由能状态。模拟肽段在三维空间中所有可能的姿态，并计算出自由能最低的一个。
计算量极大，不常用。

四、模型优化

Chiorn服务器提供Clash处理优化，一般来说优化过后的评分更高，对比一下，如果分降低了，就当什么都没发生，别优化了。

五、三级结构模型质量评估

模型预测出来后需要有3个评估软件认为合格才能用，下载PDB文件，提交到测评软件。
saves（一次性提供6个软件评估结果）我一般把warning忽略掉，这不知道对不对，没有一个准确的说法。

1.verify 3D
超过80%的残基拥有大于0.2的3D/1D值，则模型质量合格，低于0.2的部分需要进一步修正。

2.procheck
主要看拉氏图检查Cα的两面角是否合理，合格的模型超过90%的残基都应该落在红色（允许区域）和正黄色（额外允许区域）落到其他区域的残基应当被查看并修正。
以PDB中高分辨率的晶体结构参数为参考，给出提交模型的一系列立体化学参数（主链）。其输出结果包括：拉氏图，主链的键长与键角，二级结构图，平面侧链与水平面之间的背离程度等。
3.whatcheck
提交的蛋白结构与正常结构之间的差异，指标贼多，绿色多就当通过了。
4.errat
计算0.35nm范围之内，不同的原子类型对之间形成的非键相互作用的数目（侧链）。得分>85较好，晶体可达到95，一般来说结果在91以内，很容易过。

5.prove
与预先计算好的一系列标准体积的差别，用z-score来表示，显示模版蛋白质与待测蛋白之间的匹配程度，越高越好。

干货很多了！有时候比较抓狂，优化完指标有的升高有的降低，不知所措，这个没有准确答案啊。还有一些具体的应用且听下回分解吧~

一把短刀，怎么就让他连捅18人？！

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

蛋白质数据库及其结构预测攻略

1.1序列数据库：UniProt

1.2蛋白质结构数据库PDB

2.1结构域家族Pfam数据库

2.2结构分类数据库CATH

2.3结构分类数据库SCOP2

1.1已知

1.2未知

2.1同源建模

2.1.1自动档：swiss-model3-5min

2.1.2进阶档：

2.2 折叠识别i-TASSER

2.3 从头计算

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

生成图片，分享到微信朋友圈

蛋白质数据库及其结构预测攻略

1.1序列数据库：UniProt

1.2蛋白质结构数据库PDB

2.1结构域家族Pfam数据库

2.2结构分类数据库CATH

2.3结构分类数据库SCOP2

1.1已知

1.2未知

2.1同源建模

2.1.1自动档：swiss-model3-5min

2.1.2进阶档：

2.2 折叠识别i-TASSER

2.3 从头计算

您可能也对以下帖子感兴趣